智能论文笔记

ADJUST: A Dictionary-Based Joint Reconstruction and Unmixing Method for Spectral Tomography

Mathé T. Zeegers , Ajinkya Kadu , Tristan van Leeuwen , Kees Joost Batenburg

分类：计算机视觉

2021-12-21

多光谱探测器的进步导致X射线计算机断层扫描（CT）的范式偏移。从这些检测器获取的光谱信息可用于提取感兴趣对象的体积材料成分图。如果已知材料及其光谱响应是先验的，则图像重建步骤相当简单。但是，如果他们不知道，则需要共同估计地图以及响应。频谱CT中的传统工作流程涉及执行卷重建，然后进行材料分解，反之亦然。然而，这些方法本身遭受了联合重建问题的缺陷。为了解决这个问题，我们提出了一种基于词典的联合重建和解密方法的光谱断层扫描（调整）。我们的配方依赖于形成CT中常见的材料的光谱签名词典以及对象中存在的材料数的先验知识。特别地，我们在空间材料映射，光谱词典和字典元素的材料的指示符方面对光谱体积线性分解。我们提出了一种记忆有效的加速交替的近端梯度方法，以找到所得到的Bi-convex问题的近似解。根据几种合成幻影的数值示范，我们观察到与其他最先进的方法相比，调整非常好。此外，我们解决了针对有限测量模式调整的鲁棒性。

translated by 谷歌翻译

Optimally Weighted Ensembles of Regression Models: Exact Weight Optimization and Applications

Patrick Echtenbruck , Martina Echtenbruck , Joost Batenburg , Thomas Bäck , Boris Naujoks , Michael Emmerich

分类：机器学习

2022-06-22

通常向用户提出自动模型选择，以选择用于应用给定回归任务的机器学习模型（或方法）。在本文中，我们表明，组合不同的回归模型比选择单个（“最佳”）回归模型可以产生更好的结果，并概述了一种有效的方法，该方法从异质性回归模型集中获得最佳加权凸线性组合。更具体地说，在本文中，在上一篇论文中使用的启发式权重优化被使用凸二次编程的精确优化算法取代。我们证明了直接配方的二次编程公式和具有加权数据点的配方的凸度。新颖的重量优化不仅（更多）精确，而且更有效。我们在本文中开发的方法是通过github-open源实现和提供的。它们可以在常见的硬件上执行，并提供透明且易于解释的接口。结果表明，该方法在一系列数据集上的表现优于模型选择方法，包括来自药物发现应用程序的混合变量类型的数据集。

translated by 谷歌翻译

LEAN: graph-based pruning for convolutional neural networks by extracting longest chains

Richard Schoonhoven , Allard A. Hendriksen , Daniël M. Pelt , K. Joost Batenburg

分类：机器学习 | 计算机视觉 | 神经与进化计算

2020-11-13

神经网络修剪技术可以大大降低应用卷积神经网络（CNN）的计算成本。常见的修剪方法决定了通过单独对过滤器进行排名，即不考虑其相互依赖性来消除哪种卷积过滤器。在本文中，我们提倡的观点是，修剪应考虑连续运算符系列之间的相互依赖性。我们提出了最长的链（精益）方法，该方法通过使用基于图的算法选择相关的卷积链来修剪CNN。 CNN被解释为图形，每个操作员的操作员标准为边缘的距离度量。精益修剪迭代从图表中提取最高的值路径。在我们的实验中，我们测试了几个图像到图像任务的精益修剪，包括著名的Camvid数据集和现实世界中的X射线CT数据集。结果表明，精益修剪可以导致网络具有相似的精度，而卷积过滤器的使用率比现有方法少1.7-12x。

translated by 谷歌翻译

Benchmarking AutoML algorithms on a collection of binary problems

Pedro Henrique Ribeiro , Patryk Orzechowski , Joost Wagenaar , Jason H. Moore

分类：机器学习

2022-12-06

Automated machine learning (AutoML) algorithms have grown in popularity due to their high performance and flexibility to adapt to different problems and data sets. With the increasing number of AutoML algorithms, deciding which would best suit a given problem becomes increasingly more work. Therefore, it is essential to use complex and challenging benchmarks which would be able to differentiate the AutoML algorithms from each other. This paper compares the performance of four different AutoML algorithms: Tree-based Pipeline Optimization Tool (TPOT), Auto-Sklearn, Auto-Sklearn 2, and H2O AutoML. We use the Diverse and Generative ML benchmark (DIGEN), a diverse set of synthetic datasets derived from generative functions designed to highlight the strengths and weaknesses of the performance of common machine learning algorithms. We confirm that AutoML can identify pipelines that perform well on all included datasets. Most AutoML algorithms performed similarly without much room for improvement; however, some were more consistent than others at finding high-performing solutions for some datasets.

translated by 谷歌翻译

Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions

Michele Cafagna , Kees van Deemter , Albert Gatt

分类：自然语言处理 | 计算机视觉

2022-11-09

Image captioning models tend to describe images in an object-centric way, emphasising visible objects. But image descriptions can also abstract away from objects and describe the type of scene depicted. In this paper, we explore the potential of a state-of-the-art Vision and Language model, VinVL, to caption images at the scene level using (1) a novel dataset which pairs images with both object-centric and scene descriptions. Through (2) an in-depth analysis of the effect of the fine-tuning, we show (3) that a small amount of curated data suffices to generate scene descriptions without losing the capability to identify object-level concepts in the scene; the model acquires a more holistic view of the image compared to when object-centric descriptions are generated. We discuss the parallels between these results and insights from computational and cognitive science research on scene perception.

translated by 谷歌翻译

Understanding the Use of Quantifiers in Mandarin

Guanyi Chen , Kees van Deemter

分类：自然语言处理

2022-09-24

我们在普通话中介绍了简短的文本语料库，其中量化表达式的数字显着。我们通过研究假设（称为黄的“凉爽”假设）来说明语料库的重要性，即东亚语言的说话者倾向于更短暂地说话，但比例如西欧语言的说话者更有信息。语料库是由一个启发实验引起的，其中要求参与者描述抽象的视觉场景。我们将所得的语料库与使用相同的实验范式收集的英语语料库进行了比较。比较表明，量词使用的某些方面（尽管不是全部）支持上述假设。讨论了这些发现对生成量化名词短语的含义。

translated by 谷歌翻译

Decision making in cancer: Causal questions require causal answers

Wouter A. C. van Amsterdam , Pim A. de Jong , Joost J. C. Verhoeff , Tim Leiner , Rajesh Ranganath

分类：机器学习 | (统计)机器学习

2022-09-15

癌症护理中的治疗决策受到随机对照试验（RCT）的治疗效应估计的指导。 RCT估计在某个人群中，一种治疗与另一种治疗的平均效应。但是，治疗可能对人群中的每个患者都不同样有效。了解针对特定患者和肿瘤特征量身定制的治疗的有效性将实现个性化的治疗决策。通过平均RCT中不同患者亚组的结果来获得量身定制的治疗效果，需要大量的患者在所有相关亚组中具有足够的统计能力，以实现所有可能的治疗。美国癌症联合委员会（AJCC）建议研究人员开发结果预测模型（OPMS），以实现个性化治疗决策。 OPM有时称为风险模型或预后模型，使用患者和肿瘤特征来预测患者的结局，例如总体生存。假设这些预测对于使用“只有在OPM预测患者具有高复发风险的情况下开出化学疗法的规则”之类的规则，对治疗决策有用。 AJCC认识到可靠预测的重要性，发布了OPM的清单，以确保设计OPM设计的患者群体的可靠OPM预测准确性。但是，准确的结果预测并不意味着这些预测会产生良好的治疗决策。从这个角度来看，我们表明OPM依靠固定的治疗政策，这意味着被发现可以准确预测验证研究结果的OPM在用于治疗决策的情况下仍会导致患者伤害。然后，我们提供有关如何开发对个性化治疗决策有用的模型以及如何评估模型是否具有决策价值的指导。

translated by 谷歌翻译

The Role of Explanatory Value in Natural Language Processing

Kees van Deemter

分类：自然语言处理

2022-09-13

科学的一个关键目的是解释，但是解释语言现象的想法已经在主流自然语言处理（NLP）和许多其他人工智能领域中倒退。我认为，语言行为的解释应该是NLP的主要目标，这与使NLP模型可以解释不同。为了说明这些想法，将一些最新的人类语言生产模型相互比较。我的结论是，如果我们的社区认真对待一些可能的陷阱，请问我们社区是否认真对待NLP研究和机构政策意味着什么。

translated by 谷歌翻译

Improved Pancreatic Tumor Detection by Utilizing Clinically-Relevant Secondary Features

Christiaan G. A. Viviers , Mark Ramaekers , Peter H. N. de With , Dimitrios Mavroeidis , Joost Nederend , Misha Luyer , Fons van der Sommen

分类：计算机视觉 | 机器学习

2022-08-06

胰腺癌是与癌症相关死亡的全球主要原因之一。尽管深度学习在计算机辅助诊断和检测方法（CAD）方法中取得了成功，但很少关注胰腺癌的检测。我们提出了一种检测胰腺肿瘤的方法，该方法在周围的解剖结构中利用临床上的特征，从而更好地旨在利用放射科医生的知识，而不是其他常规的深度学习方法。为此，我们收集了一个新的数据集，该数据集由99例胰腺导管腺癌（PDAC）和97例没有胰腺肿瘤的对照病例组成。由于胰腺癌的生长模式，肿瘤可能总是可见为低音病变，因此，专家指的是二次外部特征的可见性，这些特征可能表明肿瘤的存在。我们提出了一种基于U-NET样深的CNN的方法，该方法利用以下外部次要特征：胰管，常见的胆管和胰腺以及处理后的CT扫描。使用这些功能，该模型如果存在胰腺肿瘤。这种用于分类和本地化方法的细分实现了99％的敏感性（一个案例）和99％的特异性，这比以前的最新方法的灵敏度增加了5％。与以前的PDAC检测方法相比，该模型还以合理的精度和较短的推理时间提供位置信息。这些结果提供了显着的性能改善，并强调了在开发新型CAD方法时纳入临床专家知识的重要性。

translated by 谷歌翻译

Plex: Towards Reliability using Pretrained Large Model Extensions

Dustin Tran , Jeremiah Liu , Michael W. Dusenberry , Du Phan , Mark Collier , Jie Ren , Kehang Han , Zi Wang , Zelda Mariet , Huiyi Hu

分类：机器学习 | (统计)机器学习

2022-07-15

人工智能的最新趋势是将验证的模型用于语言和视觉任务，这些模型已经实现了非凡的表现，但也令人困惑。因此，以各种方式探索这些模型的能力对该领域至关重要。在本文中，我们探讨了模型的可靠性，在其中我们将可靠的模型定义为一个不仅可以实现强大的预测性能，而且在许多涉及不确定性（例如选择性预测，开放式设置识别）的决策任务上，在许多决策任务上表现出色，而且表现良好。强大的概括（例如，准确性和适当的评分规则，例如在分布数据集中和分发数据集上的对数可能性）和适应性（例如，主动学习，几乎没有射击不确定性）。我们设计了40个数据集的10种任务类型，以评估视觉和语言域上可靠性的不同方面。为了提高可靠性，我们分别开发了VIT-PLEX和T5-PLEX，分别针对视觉和语言方式扩展了大型模型。 PLEX极大地改善了跨可靠性任务的最先进，并简化了传统协议，因为它可以改善开箱即用的性能，并且不需要设计分数或为每个任务调整模型。我们演示了高达1B参数的模型尺寸的缩放效果，并预处理数据集大小最多4B示例。我们还展示了PLEX在具有挑战性的任务上的功能，包括零射门的开放式识别，主动学习和对话语言理解中的不确定性。

translated by 谷歌翻译